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(57) Abstract: The invention relates to a method of translating 
input data AVin into at least one output sequence (OUTSQ). 
The inventive method comprises a decoding step during 
which sub-lexical entities having representative input data 
(AVin) are identified using a first model (MD 1 1) and during 
which different possible combinations of the aforementioned 
sub-lexical entities are generated as said sub-lexical entities 
are identified and with reference to a second model (MD3). 
The invention also involves the storing of several possible 
combinations [nj;hq;Sq] of the above-mentioned sub-lexical 
entities, the most likely combination being intended to form 
the output lexical sequence (OUTSQ) and one such storage 
operation enabling the structure of the second model (MD3) 
to be simplified. 

(57) AbregG : La pre* sen te invention concerne un procede* de 
traduction de donnees d* entree AVin en au moins une sequence 
de sortie (OUTSQ), incluant une 6tape de decodage au cours 
de laquelle des entitgs sous-lexicales dont les donnees d* entree 
(Avin) sont representatives sont identifiees au moyen d'un pre- 
mier modele (MD 1 1), et au cours de laquelle sont gSnerees, au 
fur et a mesure que les entites sous-lexicales sont identifiers et 
en reference a au moins un deuxieme modele (MD3), diverses 
combinaisons possibles desdites entites sous-lexicales. L' inven- 
tion prevoit de m^moriser une plurality de combinaisons pos- 
sibles [nj;hq;Sq] desdites entitSs sous-lexicales, la combinaison 
la plus vraisemblable Stant destined a former la sequence lexi- 
cale de sortie (OUTSQ), une telle memorisation permettant de 
simplifier la structure du deuxieme modele (MD3). 
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PROCEDE DE RECONNAISSANCE DE LA PAROLE 



Procede de traduction de donnees autorisant vine gestion de memoire simplifiee 

La presente invention concerne un procede de traduction de donnees d' entree en 
au moins une sequence lexicale de sortie, incluant une etape de decodage des donnees 
d'entree au cours de laquelle des entites lexicales dont lesdites donnees sont 

5 representatives sont identifies au moyen d'au moins un modele. 

De tels precedes sont communement utilises dans des applications de 
reconnaissance de parole, ou au moins un modele est mis en oeuvre pour reconnaitre 
des symboles acoustiques presents dans les donnees d'entree, un symbole pouvant 6tre 
constitue par exemple par un ensemble de vecteurs de parametres d'un espace 

10 acoustique continu, ou encore par un label attribu6 a une entite sous-lexicale. 

Dans certaines applications, le qualificatif "lexical" s'appliquera a une phrase 
consideree dans son ensemble, en tant que suite de mots, et les entites sous-lexicales 
seront alors des mots, alors que dans d'autres applications, le qualificatif "lexical" 
s'appliquera a un mot, et les entites sous-lexicales seront alors des phonemes ou 

15 encore des syllabes aptes a former de tels mots, si ceux-ci sont de nature litterale, ou 
des chiffres, si les mots sont de nature numenque, c'est-a-dire des nombres. 
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Une premiere approche pour operer vine reconnaissance de parole consiste a 
utiliser un type particulier de modele qui pr6sente une topologie reguliere et est 
destine a apprendre toutes les variantes de prononciation de chaque entite lexicale, 
c'est-a-dire par exemple un mot, inclus dans le modele. Selon cette premiere 

5 approche, les parametres d'un ensemble de vecteurs acoustiques propre a chaque 
symbole d'entree correspondant a un mot inconnu doivent etre compares a des 
ensembles de parametres acoustiques correspondant chacun a Tun des tres nombreux 
symboles contenus dans le modele, afin d'identifier un symbole modelise auquel 
correspond le plus vraisemblablement le symbole d'entree. Une telle approche garantit 

10 en theorie un fort taux de reconnaissance si le module utilise est bien con9u, c'est-a- 
dire quasi-exhaustif, mais une telle quasi-exhaustivite ne peut etre obtenue qu'au prix 
d'un long processus d'apprentissage du modele, qui doit assimiler une enorme 
quantite de donnees representatives de toutes les variantes de prononciation de chacun 
des mots inclus dans ce modele. Cet apprentissage est en principe realist en faisant 

15 prononcer par un grand nombre de personnes tous les mots d'un vocabulaire donne, et 
a enregistrer toutes les variantes de prononciation de ces mots. II apparait clairement 
que la construction d'un modele lexical quasi-exhaustif n'est pas envisageable en 
pratique pour des vocabulaires presentant une taille supSrieure a quelques centaines de 
mots. 

20 Une deuxieme approche a ete con9ue dans le but de reduire le temps 

d'apprentissage necessaire aux applications de reconnaissance de parole, reduction qui 
est essentielle h des applications de traduction sur de tres grands vocabulaires pouvant 
contenir plusieurs centaines de milliers de mots, laquelle deuxieme approche consiste 
a operer une factorisation des entites lexicales en les consid6rant comme des 

25 assemblages d'entites sous4exicales, a generer un modele sous-lexical mod&isant 
lesdites entitSs sous-lexicales en vue de permettre leur identification dans les donnees 
d'entree, et un modele d'articulation modelisant difKrentes combinaisons possibles de 
ces entites sous-lexicales. Selon cette deuxieme approche, un nouveau modele 
dynamique formant le modele d'articulation est constitute a partir de chaque entite 

30 sous-lexicale. nouvellement identifiee dans les donnees d'entree, lequel modele 
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dynamique rend compte de tous les assemblages rendus possibles en partant de Tenths 
sous-lexicale consider^, et determine une valeur de vraisemblance pour chaque 
assemblage possible. 

Une telle approche, decrite par exemple au chapitre 16 du manuel "Automatic 

5 Speech and Speaker Recognition" edite par Kluwer Academic Publishers, permet de 
reduire considerablement, par rapport au modele utilise dans le cadre de la premiere 
approche decrite plus haut, les durees individuelles des processus d'apprentissage du 
modele sous-lexical et du modele d'articulation, car chacun de ces modeles presente 
une structure simple par rapport au modele lexical utilise dans la premiere approche. 

10 Cependant, dans la plupart des implementations connues de la deuxieme 

approche decrite ci-dessus, le modele sous-lexical est duplique k de multiples reprises 
dans le modele d' articulation. Ceci peut Stre aisement compris en considerant un 
exemple oil Tunite lexicale est une phrase et les unites sous-lexicales sont des mots. Si 
le module d'articulation est d'un type bi-gramme, c'est-a-dire qu'il rend compte de 

15 possibilites d'assemblage de deux mots successifs et de probability d'existence de 
tels assemblages, chaque mot retenu a Tissue de la sous-etape d' identification devra 
etre etudie, en reference au modele d'articulation, avec tous les autres mots retenus 
ayant pu preceder le mot considere. Si P mots ont ete retenus a Tissue de la sous-etape 
d'identification, P couples de mots devront etre construits pour chaque mot a 

20 identifier, avec P valeurs de probability d' existence, chacime associee a un couple 
possible. Dans le cas d'un modele d'articulation plus realiste de type tri-gramme, qui 
rend compte de possibility d'assemblage de trois mots successifs et de probabilites 
d'existence de tels assemblages, le modele d'articulation devra comporter, pour 
chaque mot a identifier, P fois P triplets de mots avec autant de valeurs de probability 

25 d'existence. Les modeles d'articulation mis en oeuvre dans la deuxieme approche ont 
done une structure simple, mais representent un volume considerable de donnSes a 
memoriser, k mettre a joxir et a consulter. On con9oit aisement que la creation et 
Texploitation de tels modules donne lieu a des acces m6moire dont la gestion est 
rendue complexe par le volume de donnees a traiter, et par la repartition desdites 

30 donnees. Dans des applications de type langage naturel, pour lesquelles des modeles 
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plus realistes de type N-gramme, ou N est le plus souvent superieur a deux, sont mis 
en oeuvre, les acces memoire evoques precddemment presentent des temps 
d'execution incompatibles avec des contraintes de type "temps reel" necessitant des 
acces memoire tres rapides. 

5 Par ailleurs, chaque mot peut lui-meme etre considere vis-a-vis de syllabes ou de 

phonemes qui le composent comme une entite lexicale d'un niveau inferieur a celui 
d'une phrase, entite lexicale pour la moderation de laquelle il faut egalement recourir 
a un modele d' articulation de type N-gramme avec plusieurs dizaines d'entites sous- 
lexicales possibles dans le cas des phonemes. 

10 II apparait clairement que les multiples duplications des modeles sous-lexicaux 

auxquelles font appel les modeles d'articulation dans les implementations connues de 
la deuxieme approche prohibent l'utilisation de celle-ci dans des applications de 
reconnaissance de parole dans le cadre d' applications de type tres grands vocabulaires, 
qui component plusieurs centaines de milliers de mots. 

15 L'invention a pour but de remedier dans une large mesure a cet inconvenient, en 

proposant un precede de traduction qui ne necessite pas de multiples duplications de 
modeles sous-lexicaux pour valider des assemblages d'entites sous-lexicales, et 
simplifie ainsi 1' implementation dudit procede de traduction, et en particulier la 
gestion d'acc&s memoire utiles a ce procede. 

20 En effet, un procede de traduction conforme au paragraphe introductif, incluant 

une etape de decodage au cours de laquelle des entites sous-lexicales dont les donnees 
d' entree sont representatives sont identifiees au moyen d'un premier modele construit 
sur la base d'entites sous-lexicales predeterrninees, et au cours de laquelle sont 
generees, au fur et a mesure que les entites sous-lexicales sont identifies et en 

25 reference a au moins un deuxieme modele construit sur la base d'entites lexicales, 
diverses combinaisons possibles desdites entites sous-lexicales, est caract6rise selon 
l'invention en ce que l'etape de decodage inclut une sous-etape de memorisation 
d'une pluralit6 de combinaisons possibles desdites entites sous-lexicales, la 
combinaison la plus vraisemblable etant destinee a former la sequence lexicale de 

30 sortie. 
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Du fait que divers assemblages d'entites sous-lexicales sont memorises au fur et 
a mesure que ces entiles sont produites, il n'est plus necessaire de construire apres 
identification de chacune desdites entites sous-lexicales un modele dynamique 
reprenant toutes les entites sous-lexicales possibles, ce qui permet d'eviter les 
duplications evoquees plus haut et les problemes de gestion memoire y afferant. 

La possibilite de memoriser plusieurs combinaisons differentes permet de garder 
une trace de plusieurs assemblages possibles d'entites sous-lexicales, chacun 
presentant une vraisemblance propre a l'instant ou cet assemblage est genere, laquelle 
vraisemblance pouvant etre affectee favorablement ou defavorablement apres analyse 
de sous-entites lexicales ulterieurement produites. Ainsi, une selection d'un 
assemblage presentant la plus forte vraisemblance a un instant donne, mais qui sera 
finalement juge peu vraisemblable a la lumiere d'entites sous-lexicales ulterieures ne 
provoquera pas une elimination systematique d'autres assemblages, qui pourront 
finalement s'averer plus pertinents. Cette variante de l'invention permet done de 
15 conserver des donnees representant, sous forme de differents historiques, differentes 
interpretations des donnees d' entree, interpretations dont la plus vraisemblable pourra 
etre identifiee et retenue pour former la sequence lexicale de sortie lorsque toutes les 
entites sous-lexicales auront elles-mSme ete identifies. 

Dans un mode de realisation particulier de cette variante de l'invention, la 
20 memorisation d'une combinaison est assujettie a une validation operee en reference au 
moins au deuxieme modele. 

Ce mode de realisation permet de realiser de maniere simple un filtrage des 
assemblages qui paraissent peu vraisemblables a la lumiere du deuxieme modele. 
Seuls seront retenus et memorises les assemblages les plus plausibles, les autres 
25 assemblages n' etant pas memorises et done pas ulterieurement pris en consideration. 

Dans une variante de ce mode de realisation, la validation de memorisation 
pourra etre effectuee en reference a plusieurs modeles de niveaux equivalents et/ou 
differentes, un niveau rendant compte de la nature sous-lexicale, lexicale ou encore 
grammaticale d'un modele. 
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Dans un mode de realisation particulierement avantageux de cette variante de 
l'invention, une validation de memorisation d'une combinaison est accompagnee 
d'une attribution a la combinaison a memoriser d'une valeur de probability 
representative de la vraisemblance de ladite combinaison. 
5 Ce mode de realisation . permet de moduler la nature binaire du filtrage operee 

par la validation ou l'absence de validation de la memorisation d'une combinaison, en 
affectant une appreciation quantitative a chaque combinaison memorisSe. Ceci 
permettra une meilleure appreciation de la vraisemblance des diverses combinaisons 
qui auront 6t& memorisees, et done une traduction de meilleure qualite des donnees 
10 d'entaSe. 

On pourra en outre prevoir que differentes operations de validation portant sur 
differentes combinaisons relatives a un meme etat du premier modele sont executees 
de fa9on contigue dans le temps. 

Ceci permettra de r^duire encore le volume des acces memoire et des 
15 duplications de calcul, en traitant en une seule fois toute une famille d' informations 
qu'il faudra sinon memoriser et lire a de multiples reprises. 

Dans un mode de realisation particulier de Pinvention, l'6tape de decodage met 
en oeuvre un algorithme de Viterbi applique a im premier module de Markov constitue 
d'entites sous-lexicales, sous controle dynamique d'un deuxi^me module de Markov 
20 representatif de combinaisons possibles d'entites sous-lexicales. 

Ce mode de realisation est avantageux en ce qu'il utilise des moyens eprouves et 
individuellement connus de 1'homme du m6tier, le controle dynamique obtenu grace 
au deuxieme module de Markov permettant de valider les assemblages d'entites sous- 
lexicales au fur et a mesure que lesdites entites sont identifiees au moyen de 
25 l'algorithme de Viterbi, ce qui evite d'avoir k construire apres identification de chaque 
entite sous-lexicale wx nouveau module dynamique reprenant toutes les entites sous- 
lexicales possibles semblable k ceux utilises dans les implementations connues de la 
deuxieme approche evoquee plus haut. 

L'invention concerne 6galement un systeme de reconnaissance de signaux 
30 acoustiques mettant en oeuvre un proc6d6 tel que d£crit ci-dessus. 
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Les caracteristiques de l'invention mentionnees ci-dessus, ainsi que d'autres, 
apparaitront plus clairement a la lecture de la description suivante d'un exemple de 
realisation, ladite description etant faite en relation avec les dessins joints, parmi 
lesquels : 

5 La Fig.l est un schema fonctionnel decrivant un systeme de reconnaissance 

acoustique dans lequel un procede conforme a l'invention est mis en oeuvre, 

La Fig.2 est un schema fonctionnel decrivant un decodeur destine a executer une 
premiere etape de decodage dans ce mode de mise en oeuvre particulier de l'invention, 
et 

10 La Fig.3 est un schema fonctionnel decrivant un decodeur destine a executer une 

deuxieme etape de decodage conforme au procede selon l'invention. 

La Fig.l represente schematiquement un systeme SYST de reconnaissance 
acoustique selon un mode de mise en oeuvre particulier de l'invention, destine a 
traduire un signal acoustique d'entree ASin en une sequence lexicale de sortie 

15 OUTSQ. Le signal d'entree ASin est constitue par un signal electronique analogique, 
qui pourra provenir par exemple d'un microphone non represente sur la figure. Dans 
le mode de realisation decrit ici, le systeme SYST inclut un etage d'entree FE, 
contenant un dispositif de conversion analogique/numerique ADC, destine a fournir 
un signal numerique ASin(l:n), forme d'echantillons ASin(l), ASin(2)...ASin(n) 

20 codes chacun sur b bits, et representatif du signal acoustique d'entree ASin, et un 
module d'echantillonnage SA, destine a convertir le signal acoustique numeris6 
ASin(l:n) en une sequence de vecteurs acoustiques AVin, chaque vecteur etant muni 
de composantes AVI, AV2. ..AVr ou r est la dimension d'un espace acoustique defini 
pour une application donnee a laquelle le systeme de traduction SYST est destine, 

25 chacune des composantes AVi (pour i=l a r) etant evaluee en fonction de 
caracteristiques propres a cet espace acoustique. 

Le systeme SYST inclut en outre un premier decodeur DEC1, destine a fournir 
une selection Intl, Int2...IntK d'interpr6tations possibles de la sequence de vecteurs 
acoustiques AVin en reference a un modele MD1 construit sur la base d'entites sous- 

30 lexicales predetermin6es. 
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Le systeme SYST inclut de plus un deuxieme decodeur DEC2 dans lequel un 
procede de traduction conforme a l'invention est mis en oeuvre en vue d'analyser des 
donnees d'entree constitu6es par les vecteurs acoustiques AVin en reference a un 
premier modele construit sur la base d'entites sous-lexicales predetermines, par 
5 exemple le modele MD1, et en reference a au moins un deuxieme modele MD2 
construit sur la base d'entites lexicales representatives des interpretations Ml, 
Int2...IntK selectionnees par le premier decodeur DEC1, en vue d'identifier celle 
desdites interpretations qui devra constituer la sequence lexicale de sortie OUTSQ. 

La fig.2 represente plus en detail le premier decodeur DEC1, qui inclut une 
10 premiere machine de Viterbi VM1, destinee a executer une premiere sous-etape de 
decodage de la sequence de vecteurs acoustiques AVin representative du signal 
acoustique d'entree et prealablement generee par l'etage d'entree FE, laquelle 
sequence sera en outre avantageusement memorisee dans une unite de stockage 
MEM1 pour des raisons qui apparaitront dans la suite de l'expose. La premiere sous- 
15 6tape de decodage est operee en reference a un modele de Markov MD1 1 autorisant 
en boucle toutes les entites sous-lexicales, de preference tous les phonemes de la 
langue dans laquelle le signal acoustique d'entee doit etre traduit si l'on considere que 
les entites lexicales sont des mots, les entites sous-lexicales etant representees sous 
forme de vecteurs acoustiques predetermin6s. 
20 La premiere machine de Viterbi VM1 est apte a restituer une sequence de 

phonemes Phsq qui constitue la plus proche traduction phonetique de la sequence de 
vecteurs acoustiques AVin. Les traitements ulterieurs realises par le premier decodeur 
DEC1 se feront ainsi au niveau phonetique, et non plus au niveau vectoriel, ce qui 
reduit considerablement la complexite desdits traitements, chaque vecteur etant une 
25 entite multidimensionnelle presentant r composantes, tandis qu'un phoneme peut en 
principe €tre identify par un label unidimensionnel qui lui est propre, comme par 
exemple un label "OU" attribue a une voyelle orale "u", ou un label "CH" attribue a 
une consonne Motive non-voisee 'f '. La sequence de phonemes Phsq generee par la 
premiere machine de Viterbi VM1 est ainsi constituee d'une succession de labels plus 
30 ais6ment manipulables que ne le seraient des vecteurs acoustiques. 
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Le premier decodeur DEC1 inclut une deuxieme machine de Viterbi VM2 
destinee a executer une deuxieme sous-etape de decodage de la sequence de phonemes 
Phsq generee par la premiere machine de Viterbi VM1. Cette deuxieme etape de 
decodage est operee en reference a un modele de Markov MD12 constitue de 
5 transcriptions sous-lexicales d'entites lexicales, c'est-a-dire dans cet exemple de 
transcriptions phonetiques de mots presents dans le vocabulaire de la langue dans 
laquelle le signal acoustique d'entr.ee doit etre traduit. La deuxieme machine de 
Viterbi est destinee a interpreter la sequence de phonemes Phsq, qui est fortement 
bruitee du fait que le modele MD11 utilise par la premiere machine de Viterbi VM1 
1 0 est d'une grande simplicity et met en ceuvre des predictions et des comparisons entre 
des suites de labels de phonemes contenus dans la sequence de phonemes Phsq et 
diverses combinaisons possibles de labels de phonemes prevues dans le modele de 
Markov MD12. Bien qu'une machine de Viterbi ne restitue usuellement que celle des 
s6quences qui presente la plus grande probability la deuxieme machine de Viterbi 
15 VM2 mise en ceuvre ici restituera avantageusement toutes les sequences de phonemes 
lsql, lsq2...1sqN que ladite deuxieme machine VM2 aura pu reconstituer, avec des 
valeurs de probability associees pi, P 2...pN qui auront ete calculees pour lesdites 
sequences et seront representatives de la fiabilite des interpretations du signal 
acoustique que ces sequences representent. 
20 Toutes les interpretations possibles lsql, lsq2...1sqN etant rendues 

automatiquement disponibles a l'issue de la deuxieme sous-etape de decodage, une 
selection de K interpretations Intl, Int2. . .IntK qui presentent les plus fortes valeurs de 
probability est aisee quelle que soit la valeur de K qui aura ete choisie. 

Les premiere et deuxieme machines de Viterbi VM1 et VM2 peuvent 
25 fonctionner en parallele, la premiere machine de Viterbi VM1 generant alors au fur et 
a mesure des labels de phonemes qui seront immediatement pris en compte par la 
deuxieme machine de Viterbi VM2, ce qui permet de reduire le delai total per9u par 
un utilisateur du systeme n6cessaire a la combinaison des premiere et deuxieme sous- 
etapes de decodage en autorisant la mise en oeuvre de l'ensemble des ressources de 
30 calcul necessaires au fonctionnement du premier decodeur DEC1 des que les vecteurs 



WO 03/083830 



PCT/FR03/00653 



10 



acoustiques AVin representatifs du signal acoustique d'entree apparaissent, et non pas 
apres qu'ils aient ete entierement traduits en une sequence complete de phonemes 
Phsq par la premiere machine de Viterbi VM1 . 

La Fig.3 represente plus en detail un deuxieme ddcodeur DEC2 conforme a un 

5 mode de realisation particulier de l'invention. Ce deuxieme decodeur DEC2 inclut une 
troisieme machine de Viterbi VM3 destinee a analyser la sequence de vecteurs 
acoustiques AVin representative du signal acoustique d'entree prealablement 
memorisee dans l'unite de stockage MEM1. 

A cet effet, la troisieme machine de Viterbi VM3 est destinee a executer une 

10 sous-etape d' identification au cours de laquelle les entites sous-lexicales dont les 
vecteurs acoustiques AVin sont representatifs sont identifiees au moyen d'un premier 
modele construit sur la base d' entites sous-lexicales predetermines, dans cet exemple 
le modele de Markov MD1 1 mis en oeuvre dans le premier decodeur et deja decrit plus 
haut. 

15 La troisieme machine de Viterbi VM3 genere en outre, au fur et a mesure que 

ces entites sont identifiees et en rdference a au moins un modele de Markov specifique 
MD3 construit sur la base d'entites lexicales, diverses combinaisons possibles des 
entites sous-lexicales, la combinaison la plus vraisemblable etant destinee a former la 
sequence lexicale de sortie OUTSQ. Le modele de Markov specifique MD3 est ici 

20 specialement genere a cet effet par un module de creation de modele MGEN, et est 
uniquement representatif d'assemblages possibles de phonemes au sein des sequences 
de mots formees par les diverses interpretations phonetiques Intl, Int2,...IntK du 
signal acoustique d'entree dehvrees par le premier decodeur, lesquels assemblages 
sont representes par des sous-modeles extraits du modele lexical MD2 par le module 

25 de creation de modele MGEN. Le modele de Markov specifique MD3 presente done 
une taille restreinte du fait de sa specificity. 

Lorsque la troisieme machine de Viterbi VM3 se trouve dans un etat ni donne, 
auquel sont associes un historique hp et une valeur de probabilite Sp, s'il existe dans 
le modele de Markov MD1 1 une transition dudit etat ni vers un etat nj munie d'un 

30 marqueur M, lequel marqueur pouvant par exemple etre constitue par le label d'un 
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phoneme dont le dernier etat est ni ou d'un phoneme dont le premier etat est nj, la 
troisieme machine de Viterbi VM3 associera a l'etat nj un nouvel historique hq et une 
nouvelle valeur de probabilite Sq qui seront generes en reference au modele specifique 
MD3, sur la base de l'historique hp, de sa valeur de probabilite associee Sp et du 

5 marqueur M, la valeur de probabilite Sp pouvant en outre Stre egaiement modifiee en 
reference au modele de Markov MD11. Cette operation sera repetee pour tous les 
historiques associes a l'etat ni. Si un meme historique hk est associ6 a plusieurs 
reprises a un meme etat du modele de Markov MD11 avec differentes valeurs de 
probabilite Spl,...Spq, conformement a l'algorithme de Viterbi, seule la valeur de 

10 probabilite la plus elevee sera conservee et attribuee en tant que valeur de probabilite 
Sp a 1'historique hk. 

Chaque etat nj est memorise dans une unite de stockage MEM2 avec ses 
differents historiques hq et une valeur de probabilite Sq propre a chaque historique, et 
ce jusqu'a ce que la troisieme machine de Viterbi VM3 ait identifie tous les phonemes 

15 contenus dans la sequence de vecteurs acoustiques d'entree AVin et ait atteint un 
dernier etat nf au fil d'une pluralite d'historiques hf representant les diverses 
combinaisons possibles des phonemes identifies. Celui de ces historiques auquel aura 
ete attribude la plus forte valeur de probabilite SU sera retenu par un decodeur de 
memoire MDEC pour former la sequence lexicale de sortie OUTSQ. 

20 Le modele de Markov MD3 opere done un controle dynamique permettant de 

vaUder les assemblages de phonemes au fur et a mesure que lesdits phonemes sont 
identifies par la troisieme machine de Viterbi VM3, ce qui evite d'avoir a dupliquer 
ces phonemes pour former des modeles tels ceux utilises dans les implementations 
connues de la deuxieme approche evoquee plus haut. De la sorte, les acces aux unites 

25 de stockage MEM1 et MEM2, ainsi qu'au differents modeles de Markov MD11, 
MD12, MD2 et MD3 mis en osuvre dans l'exemple decrit ci-dessus necessitent une 
gestion peu complexe, du fait de la simplicite de structure desdits modeles et des 
informations destinees a §tre m6morisees et lues dans lesdites unites de stockage. Ces 
acces memoire peuvent done etre executes suffisamment rapidement pour rendre le 
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systeme decrit dans cet exemple apte a accomplir des traductions en temps reel de 
donnees acoustiques d'entree en sequences lexicales de sortie. 

Bien que l'invention ait et<S decrite ici dans le cadre d'une application au sein 
d'un systeme incluant deux decodeurs disposes en cascade, il est tout-a-fait 

5 envisageable, dans d'autres modes de mise en oeuvre de l'invention, de n'utiliser 
qu'un unique decodeur semblable au deuxieme decodeur decrit plus haut, qui pourra 
par exemple operer une analyse acoustico-phonetique et memoriser, au fur et a mesure 
que des phonemes seront identifies, diverses combinaisons possibles desdits 
phonemes, la combinaison de phonemes la plus vraisemblable etant destinee a former 

10 la sequence lexicale de sortie. 
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REVENDICATIONS 

1) Procede de traduction de donnees d' entree en au moins une sequence lexicale 
de sortie, incluant une etape de decodage des donnees d' entree au cours de laquelle 
des entites sous-lexicales dont lesdites donnees sont representatives sont identifies au 
moyen d'un premier modele construit sur la base d'entites sous-lexicales 

5 predetermines, et au cours de laquelle sont gener6es, au fur et a mesure que les 
entites sous-lexicales sont identifides et en reference a au moins un deuxieme modele 
construit sur la base d'entites lexicales, diverses combinaisons possibles desdites 

entites sous-lexicales, 

procede caracterise en ce que l'etape de decodage inclut une sous-etape de 
10 memorisation d'une pluralite de combinaisons possibles desdites entites sous- 
lexicales, la combinaison la plus vraisemblable etant destinee a former la sequence 
lexicale de sortie. 

2) Procede de traduction selon la revendication 1, caracterise en ce que la 
memorisation d'une combinaison est assujettie a une validation operee en reference au 

15 moins au deuxieme modele. 

3) Procede de traduction selon la revendication 2, caracterise en ce qu'une 
validation de memorisation d'une combinaison est accompagnee d'une attribution a la 
combinaison a memoriser d'une valeur de probability representative de la 
vraisemblance de ladite combinaison. 

20 4) Proced6 de traduction selon l'une des revendications 2 ou 3, caracterise en ce 

que differentes operations de validation portant sur differentes combinaisons relatives 
a un meme etat du premier modele sont executees de fa9on contigue dans le temps. 

5) Procede de traduction selon la revendication 1, caracterise en ce que l'etape 
de decodage met en oeuvre un algorithme de Viterbi applique a un premier modele de 

25 Markov constitue d'entites sous-lexicales, sous contrSle dynamique d'un deuxieme 
modele de Markov representatif de combinaisons possibles d'entites sous-lexicales. 

6) Systeme de reconnaissance vocale mettant en oeuvre un procede de traduction 
conforme a Pune des revendications 1 a 5. 
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